\section{Revisi\'on General del \'Area de Investigaci\'on y Literatura}
\label{intro}

Este proyecto se encuadra dentro del \'area del \emph{Procesamiento de Lenguaje Natural}, una rama de la \emph{Inteligencia Artificial} dedicada a mejorar la interpretaci\'on y generaci\'on de lenguaje (ya sea escrito o hablado) para prop\'ositos generales de comunicaci\'on. Algunas de las aplicaciones pr\'acticas de este \'area de investigaci\'on son traducci\'on autom\'atica, reconocimiento de voz y sistemas de generaci\'on de di\'alogo. Un problema concreto de este area es el problema de la \emph{interpretaci\'on}, a saber, extraer el significado de una frase dada por un ser humano en su propio lenguaje.

La \emph{Interpretaci\'on de Instrucciones en Lenguaje Natural} es un proceso a trav\'es del cual un sistema automatizado recibe \'ordenes de un usuario utilizando su propio lenguaje. La Figura~\ref{fig:world} muestra un ejemplo de un mundo virtual, en el cual un agente se ubica en el sal\'on superior izquierdo. Si pudi\'eramos guiar a este agente utilizando instrucciones tales como {\em ``ve al sal\'on con el sof\'a''} o {\em ``toma la segunda puerta a tu derecha''}, podemos decir que nuestro agente interpreta correctamente instrucciones en lenguaje natural.
Esto, sin embargo, ha demostrado ser un problema de dif\'icil soluci\'on, dado que el lenguaje natural tiene una amplia variabilidad gramatical y l\'exica - incluso en un ambiente restringido, las personas describen una misma ruta y los mismos objetos en formas extremadamente diferentes. A continuaci\'on mostramos algunos ejemplos obtenidos de un mismo corpus, todas dadas para la misma ruta en la Figura~\ref{fig:world}:

\medskip
\begin{it}
1) afuera \\
\indent 2) sigue el pasaje\\
\indent 3) ahorave \emph{[sic]} al salon rosa\\
\indent 4) de vuelta al salon con la planta \\
\indent 5) Ve a traves de la puerta a la izquierda \\
\indent 6) ve a traves del agujero con papel amarillo
\end{it}
\medskip

Las personas describen rutas utilizando elementos (4) o acciones espec\'ificas (2). Pueden describir el mismo objeto de formas diferentes (5 vs 6). Las instrucciones tambi\'en difieren en su rango (3 vs 1). As\'i, incluso ignorando errores de ortograf\'ia y gram\'atica, las instrucciones contienen una variaci\'on considerable que hace que interpretarlas sea un problema complejo~\cite{mipaper}.

Las aplicaciones de un sistema capaz de interpretar instrucciones con un alto grado de eficacia ser\'ia amplio: no solo ser\'iamos capaces de controlar una amplia variedad de sistemas sin la necesidad de aprender un conjunto espec\'ifico de instrucciones y par\'ametros (desde sistemas controlados por voz hasta robots aut\'onomos~\cite{INLAGIARD}), sino que tambi\'en nos permitir\'ia entregar soluciones orientadas a personas mayores, ni\~nos y personas con distintos niveles de discapacidad~\cite{Roy_2000_3390}. Al combinar estas t\'ecnicas con sistemas capaces de generar instrucciones en lenguaje natural (cuyo rango de aplicaciones incluye sistemas de navegaci\'on e interfaces de computadora para personas con disminuci\'on visual, entre otras) podr\'iamos crear una interacci\'on mucho m\'as natural con nuestros sistemas a trav\'es del di\'alogo.

\begin{figure}
\begin{center}
\includegraphics[scale=0.33]{paraphrases.jpg}
\caption{Captura de pantalla de un mundo virtual obtenida del GIVE Challenge El mundo consiste de objetos y salones interconectados.}
\label{fig:world}
\end{center}
\end{figure}

% The section formerly known as "State of the art"
\subsection{Trabajo previo en Interpretaci\'on de Instrucciones}

Muchos de los enfoques actuales hacia este problema pueden ser clasificados en dos ramas principales. Los primeros son los {\em enfoques simb\'olicos}\cite{benotti-frolog,devault-stone:2009:EACL,MacMahon:2006:WTC}, en los cuales el significado de una oraci\'on se infiere mediante el an\'alisis del rol de cada palabra en la frase (sujeto, verbo, objeto directo, etc) a trav\'es de gram\'aticas detalladas correspondientes con el idioma del hablante. Estos enfoques eventualmente se vieron limitados cuando result\'o claro que una cobertura l\'exica y gramatical completa no podr\'ia ser obtenida con este m\'etodo: dado que las reglas son creadas a mano, ser\'ia imposible crear un conjunto de reglas lo suficientemente amplio para contener todas las posibles frases en un idioma. En su lugar, los {\em enfoques estad\'isticos}\cite{traum-non-team, swartout-iva, Vogel:2010:LFN, chen:aaai11} se convirtieron en la segunda rama principal. En estos enfoques, se colecta una muestra o corpus de frases esperadas para el mismo dominio, son anotadas (usualmente de forma manual) y luego utilizadas como entrenamiento para un sistema de aprendizaje autom\'atico.

Tareas similares de navegaci\'on en ambientes 2D fueron exploradas por~\cite{MacMahon:2006:WTC} en su arquitectura MARCO. Esta arquitectura se enfoca en la estructura de las frases, pero los mejores resultados requieren un \'arbol gramatical perfecto para una oraci\'on dada. \cite{Vogel:2010:LFN} ha analizado este problema mediante aprendizaje de refuerzo. Este enfoque es exitoso para dominios peque\~nos, pero (como todos los enfoques de aprendizaje de refuerzo) no escala bien a dominios mayores~\cite{sutton-reinf-learn}. La creaci\'on de un modelo probabil\'istico para predecir la interpretaci\'on correcta de una instrucci\'on tambi\'en ha sido explorada por~\cite{zukerman-EtAl:2009:SIGDIAL}. 

Aunque el \'area de interpretaci\'on de instrucciones se ha movido desde los enfoques simb\'olicos hacia los enfoque estad\'isticos, el problema con estos \'ultimos es el requerimiento de mucho trabajo en la etapa de anotaci\'on de corpora. Aprender a interpretar instrucciones a partir de datos {\em anotados autom\'aticamente} resolver\'ia est problema, tal como se explor\'o previamente en~\cite{chen:aaai11}. En su trabajo, examinan una alternativa para construir un parser sem\'antico para cada instrucci\'on, pero los datos deben ser preprocesados manualmente, y esta tarea es altamente demandante.

En nuestro proyecto proponemos un m\'etodo mixto en el cual utilizamod un enfoque estad\'istico sobre datos anotados autom\'aticamente, explotando datos de interacciones previas de forma directa, sin procesamiento manual de ning\'un tipo.


\subsection{Relaci\'on entre Interpretatci\'on y Generaci\'on}

El \'area de Interpretaci\'on de Instrucciones es muy cercana a la de Generaci\'on de Instrucciones, un \'area que ha sido explorada previamente por Luciana Benotti~\cite{benotti-denis:2011:ENLG} y Alexander Koller~\cite{COIN370}, particularmente en el contexto del GIVE Challenge~\cite{KolStrGarByrCasDalMooObe10}. El GIVE Challenge es una competencia en la cual variados sistemas de Generaci\'on de Instrucciones compiten entre s\'i, y luego su puntaje se eval\'ua de acuerdo a la claridad de las instrucciones, naturalidad y precisi\'on, entre otras.

% Worded as in the paper
He realizado investigaciones previas en este \'area~\cite{mipaper}, en donde presentamos un nuevo enfoque hacia la interpretaci\'on autom\'atica de instrucciones, obteniendo resultados prometedores y que, en un estudo preliminar, podr\'ian incluso sobrepasar el estado del arte en el \'area ~ \cite{chen:aaai11}. En este proyecto introdujimos un enfoque estad\'istico en el cual las anotaciones se obtienen a trav\'es de t\'ecnicas automatizadas de planning~\cite{nau04} para generar una estrategia de aprendizaje no supervisada. Esto simplifica en gran manera el proceso de adaptaci\'on a un dominio particular, haciendo que nuestro enfoque sea particularmente bueno para prototipado r\'apido de interfaces conversacionales para la interpretaci\'on de instrucciones, dado que reduce la cantidad de trabajo requerida del dise\~nador.

Tanto el trabajo de Benotti como el m\'io comparten una representaci\'on sem\'antica del mundo, y ambos utilizan anotaciones autom\'aticas. Esta representaci\'on es m\'as cercana al mundo que las representaciones de tareas superficiales t\'ipicas, que es por qu\'e este modelo es \'util tanto para interpretaci\'on como para generaci\'on. Estos resultados esencialmente prueban que un modelo reversible es posible, y nuestros enfoques actuales parecen estar enfocados en la direcci\'on correcta.

Si bien nuestro objetivo \'ultimo es utilizar estas tecnolog\'ias en el mundo real, nuestra investigaci\'on ser\'a dise\~nada y evaluada en un mundo virtual 3D, dado que utilizar videojuegos como medio es una t\'ecnica que ha probado ser \'util: esto permite que voluntarios de todo el mundo participen en la fase de recopilaci\'on de corpora de comportamiento humano a trav\'es de una interfaz familiar~\cite{orkin-nleg11}, pero tambi\'en permite que investigadores hagan asumpciones acerca del ambiente sin requerir la implementaci\'on de agentes aut\'onomos complejos. Dado que un entorno virtual es esencialmente una definici\'on gen\'erica, deber\'iamos ser capaces de implementar nuestros resultados en un entorno de este tipo, el principal de los cuales es la World Wide Web. As\'i, dado un entorno virtual, deber\'iamos ser capaces de definir l\'ineas claras acerca de como implementar interpretaci\'on de instrucciones en \'el.